Current mainstream object detection methods for large aerial images usually divide large images into patches and then exhaustively detect the objects of interest on all patches, no matter whether there exist objects or not. This paradigm, although effective, is inefficient because the detectors have to go through all patches, severely hindering the inference speed. This paper presents an Objectness Activation Network (OAN) to help detectors focus on fewer patches but achieve more efficient inference and more accurate results, enabling a simple and effective solution to object detection in large images. In brief, OAN is a light fully-convolutional network for judging whether each patch contains objects or not, which can be easily integrated into many object detectors and jointly trained with them end-to-end. We extensively evaluate our OAN with five advanced detectors. Using OAN, all five detectors acquire more than 30.0% speed-up on three large-scale aerial image datasets, meanwhile with consistent accuracy improvements. On extremely large Gaofen-2 images (29200$\times$27620 pixels), our OAN improves the detection speed by 70.5%. Moreover, we extend our OAN to driving-scene object detection and 4K video object detection, boosting the detection speed by 112.1% and 75.0%, respectively, without sacrificing the accuracy. Code is available at https://github.com/Ranchosky/OAN.
translated by 谷歌翻译
Data-Free Class Incremental Learning (DFCIL) aims to sequentially learn tasks with access only to data from the current one. DFCIL is of interest because it mitigates concerns about privacy and long-term storage of data, while at the same time alleviating the problem of catastrophic forgetting in incremental learning. In this work, we introduce robust saliency guidance for DFCIL and propose a new framework, which we call RObust Saliency Supervision (ROSS), for mitigating the negative effect of saliency drift. Firstly, we use a teacher-student architecture leveraging low-level tasks to supervise the model with global saliency. We also apply boundary-guided saliency to protect it from drifting across object boundaries at intermediate layers. Finally, we introduce a module for injecting and recovering saliency noise to increase robustness of saliency preservation. Our experiments demonstrate that our method can retain better saliency maps across tasks and achieve state-of-the-art results on the CIFAR-100, Tiny-ImageNet and ImageNet-Subset DFCIL benchmarks. Code will be made publicly available.
translated by 谷歌翻译
Interoperability issue is a significant problem in Building Information Modeling (BIM). Object type, as a kind of critical semantic information needed in multiple BIM applications like scan-to-BIM and code compliance checking, also suffers when exchanging BIM data or creating models using software of other domains. It can be supplemented using deep learning. Current deep learning methods mainly learn from the shape information of BIM objects for classification, leaving relational information inherent in the BIM context unused. To address this issue, we introduce a two-branch geometric-relational deep learning framework. It boosts previous geometric classification methods with relational information. We also present a BIM object dataset IFCNet++, which contains both geometric and relational information about the objects. Experiments show that our framework can be flexibly adapted to different geometric methods. And relational features do act as a bonus to general geometric learning methods, obviously improving their classification performance, thus reducing the manual labor of checking models and improving the practical value of enriched BIM models.
translated by 谷歌翻译
多年来,Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区(Yolo Community)绝大多数繁荣,以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中,我们努力将其限制推向新的水平,以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求,我们广泛研究了行业或学术界的最新对象检测进步。具体而言,我们从最近的网络设计,培训策略,测试技术,量化和优化方法中大量吸收了思想。最重要的是,我们整合了思想和实践,以在各种规模上建立一套可供部署的网络,以适应多元化的用例。在Yolo作者的慷慨许可下,我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎,以进一步增强。为了了解性能,我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9%的AP。 Yolov6-S在495 fps处的43.5%AP罢工,在相同规模〜(Yolov5-S,Yolox-S和Ppyoloe-S)上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3%AP。此外,与其他推理速度相似的检测器相比,Yolov6-m/L的精度性能(即49.5%/52.3%)更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在https://github.com/meituan/yolov6上提供。
translated by 谷歌翻译
许多研究都致力于学习公平代表的问题。但是,它们并未明确表示潜在表示之间的关系。在许多实际应用中,潜在表示之间可能存在因果关系。此外,大多数公平的表示学习方法都集中在群体级别的公平性上,并基于相关性,忽略了数据基础的因果关系。在这项工作中,我们从理论上证明,使用结构化表示可以使下游预测模型实现反事实公平,然后我们提出了反事实公平性变异自动编码器(CF-VAE)以获得有关领域知识的结构化表示。实验结果表明,所提出的方法比基准公平方法获得了更好的公平性和准确性性能。
translated by 谷歌翻译
随着深度学习的普及,深度学习的硬件实施平台引起了人们的兴趣。与通用设备,例如CPU或GPU不同,在软件级别执行深度学习算法,神经网络硬件加速器直接执行算法,以提高能源效率和性能提高。但是,随着深度学习算法的频繁发展,设计硬件加速器的工程工作和成本大大增加了。为了提高设计质量的同时,提出了神经网络加速器的设计自动化,在该设计空间探索算法被用于在设计空间内自动搜索优化的加速器设计。然而,神经网络加速器的复杂性增加为设计空间带来了不断增加的尺寸。结果,以前的设计空间探索算法不再足够有效,无法找到优化的设计。在这项工作中,我们提出了一个名为Gandse的神经网络加速器设计自动化框架,我们在其中重新考虑了设计空间探索的问题,并提出了一种基于生成对抗网络(GAN)的新方法,以支持高尺寸大型设计的优化探索空间。实验表明,与包括多层感知器和深度强化学习在内的方法相比,甘德能够在可忽略的时间中找到更优化的设计。
translated by 谷歌翻译
知识蒸馏(KD)是一种广泛使用的技术,用于训练对象检测中的紧凑模型。但是,仍然缺乏关于如何在异质探测器之间提炼的研究。在本文中,我们从经验上发现,尽管他们的探测头和标签分配不同,但异构教师探测器的更好的FPN功能可以帮助学生。但是,将特征图直接对齐以提炼探测器有两个问题。首先,老师和学生之间的功能幅度差异可能会对学生实施过度严格的限制。其次,来自教师模型的FPN阶段和具有较大特征大小的通道可能会主导蒸馏损失的梯度,这将压倒KD中其他功能的影响并引入大量噪音。为了解决上述问题,我们建议模仿Pearson相关系数的功能,以专注于教师的关系信息,并放宽对功能大小的约束。我们的方法始终优于现有检测方法,并适用于同质和异类的学生教师对。此外,它的收敛速度更快。基于Resnet-50的视网膜和FCO的强大MaskRCNN-SWIN检测器作为教师,在COCO2017上获得了41.5%和43.9%的地图,分别比基线高4.1 \%和4.8%。
translated by 谷歌翻译
自动摘要方法是有效的,但可能患有低质量。相比之下,手动摘要很昂贵,但质量更高。人类和人工智能可以协作以提高总结性能吗?在类似的文本生成任务(例如机器翻译)中,人类AI合作的形式是“后编辑” AI生成的文本,可减少人类的工作量并提高AI输出的质量。因此,我们探讨了邮政编辑是否提供文本摘要中的优势。具体来说,我们对72名参与者进行了实验,将提供的后编辑摘要与手动摘要进行了摘要,以摘要质量,人为效率和用户在正式新闻(XSUM新闻)和非正式(REDDIT帖子)文本方面进行了比较。这项研究对何时编辑的文本摘要提供了宝贵的见解:在某些情况下(例如,何时参与者缺乏领域知识),但在其他情况下却没有帮助(例如,何时提供的摘要包括不准确的信息)。参与者的不同编辑策略和援助需求为未来的人类摘要系统提供了影响。
translated by 谷歌翻译
自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
我们展示了在文本上预先培训的神经网络,并在代码上进行微调解决数学问题,通过程序合成解决了数学问题。我们将问题转化为编程任务,自动生成程序,然后从MIT的大型数学课程(单变微积分18.01,多变量计算18.02,微分方程18.03,概率和统计介绍18.05,概率和统计概要和统计概要和统计概要和统计概要和统计概要和统计概要和统计概要和统计概况概要和统计概要和统计概要和统计概率概述的大学级问题。 18.06,以及计算机科学的数学6.042)以及数学数据集的问题(在预先发生的地板,代数,计数和概率,数字理论和前进的问题上),最新数学问题的基准专门用于评估数学推理。我们探索提示生成方法,使变形金刚能够为这些主题生成问题解决程序,包括具有图的解决方案。我们在每个主题中的随机问题上生成正确的答案。我们量化了原始和转型问题之间的差距,并进行了调查以评估所产生的问题的质量和难度。这是在规模上自动解决,等级和生成大学数学课程问题的第一项工作,这代表了高等教育的里程碑。
translated by 谷歌翻译